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摘 要 : 针对 航 迹 探测 领域 中 探测 器 获得 的 目标 地 理 位 置 通常 是 同一 帧 下 无 法 区 分 的 多 目标 场景 ， 需 要 利用 目标 位 
置信 息 还 原 各 航 迹 并 区 分 各 目标 的 问题 进行 研究 ， 提 出 采用 深度 强化 学 习 方 法 复原 目标 航 迹 的 方法 。 依 据 目标 航 迹 
的 物理 特点 ， 提 取 数 学 模型 ， 结 合 目标 航 迹 的 方向 、 曲 率 等 提出 轨迹 曲率 圆 (trajectory osculating circle，TOC) 奖 励 函 
数 ， 使 深度 强化 学 习 能 够 有 效 复原 多 目标 航 迹 并 区 分 各 目标 。 首 先 描述 多 目标 航 迹 复原 问题 ， 并 将 问题 建 模 成 深度 
强化 学 习 能 够 处 理 的 模型 ;结合 TOC 奖励 溃 数 对 多 目标 航 迹 复原 问题 进行 实验 ;最 后 给 出 该 奖励 隙 数 的 数学 推导 和 物 
理解 释 。 实 验 结果 表明 ，TOC 奖励 函数 驱动 下 的 深度 强化 网 络 能 够 有 效 还 原 目标 的 航 迹 ， 在 航向 和 航速 方面 切合 实 
际 目 标 航 迹 。 
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Design of reward function in multi-target trajectory recovery with deep reinforcement learning 
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Abstract: It attracts lots of attention in the field of object trajectory detection that detectors always receive several 
geographical locations without any other information about the targets, and furthermore it comes into a problem to use the 
geographical location information received by the sensors to reconstruct the trajectories of each target as well as to 
distinguish the targets in each frame, which ls called multi-target trajectory recovery and can be solved by Deep 
Reinforcement Learning (DRL) . A trajectory osculating circle (TOC) reward function is implemented based on the 


\© 7 mathematical model of the direction and trajectory curvature according to the peculiarity of trajectories in actual. Firstly, the 
| issue of the multi-target trajectory reconstruction is Switched into a model which can be appropriate for DRL. Then, DRL is 
tested with the proposed reward function. Finally, a mathematical derivation and physical interpretation of the proposed 
TOC reward function is introduced. The experimental result shows that with the guidance of the TOC reward function, DRL 
can reverse the trajectory effectively, and the trace corresponds well with the actual trajectory. 
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t= 0 引言 到 如 何 使 最 终结 果 达 到 最 优 的 决策 方法 。 
人 在 深度 学 习 被 提出 之 前 ， 局 限于 内 存 复 杂 度 、 计 算 复杂 

强化 学 习 (reinforcement learning) 在 具有 决策 性 质 的 问题 度 以 及 机 器 学 习 算法 和 采样 复杂 度 等 问题 ， 强 化 学 习 的 稳定 
中 逐渐 凸显 出 了 优异 的 性 能 而 备 受 关注 。 强 化 学 习 的 理论 基 ， 性 较 差 ， 并 且 只 局 限于 解决 低 维 输入 问题 59。 深 度 学 习 与 传 
础 由 文献 [1] 提 出 ,该 方法 模拟 了 生物 根据 环境 的 影响 来 自动 统 的 神经 网 络 相 比 有 更 多 的 隐 层 , 从 而 具有 更 多 的 超 参 数 0 
调节 自身 的 行动 以 最 好 的 适应 环境 。Mnih 等 人 争 通 过 强化 学 。 ”激活 函数 从 Sigmoid 改变 成 ReLU[3], 深度 神经 网 络 具 有 很 强 
习 从 高 维 输入 信息 中 利用 深度 学 习 模 型 成 功 学 习 到 了 控制 策 ”函数 逼近 能 力 和 学 习 能 力 等 特点 ， 从 而 为 强化 学 习 解 决 高 多 
多， 并 在 Atari 游戏 上 取得 成 功 。 为 了 模拟 生物 对 环境 的 适 ”复杂 问题 提供 了 有 力 的 工具 。 结 合 了 深度 学 习 的 强化 学 习 又 
应 性 ， 需 要 解决 如 下 问题 : 从 高 维 的 输入 信息 中 找 出 有 效 。 被 称 为 深度 强化 学 习 (deep reinforcement learning, DRL)I。 然 


TI ~ 


HY 下 
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的 环境 信息 ， 如 从 视觉 图 片 中 找到 游戏 中 的 攻击 目标 等 ; bj 而， 二 者 的 简单 结合 并 不 能 保证 学 习 过 程 的 稳定 性 ， 因 此 有 
根据 环境 信息 作出 有 效 的 决策 以 改变 环境 以 达到 有 利 的 状态 。” 一 系列 致力 于 稳定 性 的 研究 ， 目 前 主要 的 方法 有 :a) 通 过 引入 
及 最 终结 果 B。 通 过 对 Atari 的 图 像 像 素 信息 和 游戏 得 分 作 。 ” 重 放 (replay) 的 机 制 , 让 智能 体 在 训练 的 过 程 中 定期 重复 之 前 


为 输入 ， 根 据 游 戏 环 境 采 用 强化 学 习 方 法 训练 出 的 决策 可 以 殉 过 的 游戏 从 而 加 强 对 类 似 环境 问题 的 解决 策略 的 学 习 
与 职业 游戏 玩家 的 技能 相当 。 可 以 看 出 , 对 于 动态 决策 问题 ， 0 然而 , 该 过 程 会 消耗 较 多 内 存 用 于 存储 历史 游戏 信息 ;b) 
为 了 能 够 得 到 最 优 的 最 终结 果 ， 每 一 步 决 策 未 必要 选择 当前 。 利用 多 个 智能 体 并 行 训练 ， 并 解 看 各 个 并 行 智能 体 之 间 的 数 
一 步 最 优 的 ， 而 强化 学 习 可 以 通过 决策 的 学 习 过 程 逐 步 学 已 据 ， 使 得 每 个 智能 体 处 理 的 环境 信息 具有 稳定 性 031， 同 时 还 
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是 根据 目 


言 息 ， 提 取出 的 关键 信息 使 得 强 
理 该 游戏 中 的 决策 问题 。 
利用 深度 强化 学 习 以 及 其 他 的 经 
他 复杂 难 操作 的 游戏 均 可 1 
FlappyBirdl1$.19, TORCS[?0 等 。 


迹 聚 类 问题 2 主要 
各 个 目标 的 航行 轨迹 ， 根 据 目标 
标的 航 距 航速 等 
的 聚 类 结果 。 该 问题 一 般 可 以 


AlphaGo 


游戏 视觉 图 像 的 高 


化 学 习 能 够 更 加 稳定 的 处 
能 够 成 功 击败 人 类 ， 也 是 


对 海量 的 航 迹 数据 中 挖掘 


利索 算法 上 1。 还 有 许多 其 
深度 强化 学 习 来 完成 ， 如 
这 些 实验 均 在 OpenAI Gym 平 
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的 属性 


全 pr 
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言 息 进 行 聚 类 ， 一 般 
合 判断 各 个 点 属于 各 个 目标 
] K-means 等 聚 类 方法 针对 


采 
身份 


目标 的 空间 地 理 位 


信息 和 


据 该 指标 渐 
步 决策 过 程 中 选择 当 


1.3 
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在 采取 某 种 行动 后 , 得 到 对 应 的 奖励 
函数 。 该 行动 依据 策略 得 出 ， 通 过 当前 几 
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进 收敛 到 最 优 策略 。 例 如 ， 贪 焚 策 略 就 是 在 每 一 


前 能 够 获得 的 状态 值 最 大 的 那个 策略 ， 
然而 依 此 法 选择 的 策略 未 必 会 是 全 局 最 优 策略 。 
状态 -行动 值 函数 


值 即 为 状态 -行动 值 


态 采用 不 同行 动 下 


环境 反馈 的 奖励 来 确定 。 不 同 的 策略 会 导致 在 相同 状态 下 得 


到 不 同行 
行动 值 函数 


动 。 在 


雹 化 过 程 中 


的 结果 。 
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开发 (exploitation) 是 在 指定 区 


该 最 


对 未 知 区 域 进 行 


z 值 未 必 是 全 


发 ， 以 


数 共 


望 找 到 其 全 局 最 小 点 。 


Ph， 需 要 通过 状态 值 函数 和 状态 - 
< 同 指导 智能 体 的 学 习 ， 最 终 达 到 较 好 直至 最 优 


或 内 进行 最 优 值 搜索 , 但 是 
局 最 优 ， 因 此 需要 引入 探索 (exploration) 


期 望 找到 


假设 当 


全 


K-means 等 传统 聚 类 方法 


进行 聚 类 计算 训 ， 引 


于 聚 类 过 程 


言 息 进行 聚 类 已 1。 然而 


重点 针对 距离 信息 


| 入 其 人 


， 直观 3 
函数 更 加 直观 有 效 ， 


核 函 数 的 复杂 且 不 直观 的 设计 工作 。 


深度 强化 学 习 使 
戏 ， 抛 开 游 戏 性 不 谈 ， 航 迹 复原 问题 
习 来 解决 。 本 文 所 要 解决 的 骨 


也 属性 需要 设计 更 加 复杂 的 度量 距 
离 的 函数 ， 或 者 将 输入 数据 通过 核 函数 映射 到 相应 的 高 维 空 
间 ， 但 是 核 函数 的 设计 不 具 
习 中 奖励 函数 的 设计 
特性 ， 所 设计 的 奖励 
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进行 决策 如 何 连 线 的 动态 规划 问题 。 
方法 对 该 问题 进行 解决 ， 并 提出 


的 地 理 


立 置信 息 ， 


风 迹 复原 问题 如 下 : 


: 探测 器 按照 
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F 探测 器 的 限制 ， 存 
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种 适 
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题 与 强化 学 习 
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A 策 的 学 习 过 程 。 强 化 学 习 中 包含 
能 体 (agent)， 环 境 (environment) 和 奖励 (reward)， 在 强化 学 
0 环境 通过 奖励 机 制 完成 一 定 的 交互 。 在 
竞 都 处 于 某 种 状态 (state)， 智 能 体 根据 对 环境 状 
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F 发 的 最 终结 果 只 能 是 在 处 f(x) 取得 最 小 值 ， 
F: 搜 索 区 间 以 一 定 概率 拓展 到 [0,5] 上 ， 从 而 有 
局 最 优点 必 。 
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函数 极 小 值 的 探索 与 开发 过 程 


Fig. 1 Exploration and exploitation steps of searching for the 


局 部 最 优 ， 
探索 与 开发 相 绢 


十 大 | 
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minimum of a function. 
开发 过 程 是 在 区 间 内 找到 
机 会 跳出 


从 而 找到 全 


多 目标 航 迹 复原 问题 建 模 
图 2 所 示 是 一 般 的 强化 学 习 的 框架 ， 


需要 进行 
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动 会 影 


的 环境 状态 以 及 它 采取 了 行动 后 环境 反 
的 奖励 。 强 化 学 习 中 涉及 的 针对 不 同时 刻下 环境 的 状态 采 
型 的 序 贯 决策 问题 


页 ， 同 时 策略 和 环境 
及 状态 -行动 值 函数 


来 描述 ， 为 了 得 到 全 局 最 优 解 ， 还 需要 在 决策 过 程 中 进行 探 


索 与 开发 。 
1.1 序 贯 决策 
序 贯 决策 是 依 时 间 
态 情况 进行 的 决策 。 对 各 个 阶段 的 决策 


顺序 ， 在 各 个 时 刻 点 上 根据 环境 的 状 


成 策略 。 在 强化 学 


习 过 程 中 ， 根 据 有 匠 


报 的 环境 行动 交互 数据 ， 每 个 阶段 下 有 


利于 实现 目标 的 动作 被 保留 ,不 利于 实现 目标 的 动作 被 抛弃 。 
1.2 ”状态 值 函数 

策略 是 选择 动作 的 依据 ， 在 采用 某 种 策略 后 ， 得 到 对 应 
奖励 的 期 望 值 即 为 状态 值 函数 。 强 化 学 习 的 过 程 就 是 需要 根 
据 以 往 的 实验 结果 针对 各 个 策略 构建 一 个 指标 函数 ， 从 而 依 
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策略 选择 


系列 的 交互 ， 在 每 一 个 时 刻 ， 
智能 体 根 据 当前 的 环境 状态 结合 
定 的 行动 * ， 该 行动 会 相应 影 
也 会 根据 智能 体 采 取 的 行动 作出 相应 响应 ， 给 
对 当前 所 采取 的 行动 的 奖惩 *， 习 
发 生 响 应 和 变化 ， 即 任务 完成 。 


己 的 


局 部 最 优 的 过 程 ， 而 探测 则 有 
局 最 优 的 操作 ， 实 际 应 用 表 
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Fig.2 Framework of reinforcement learning 
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个 


得 的 奖惩 值 ， 而 是 
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任务 完成 后 ， 相 
是 完成 一 次 人 


体 的 任务 就 是 通 


强化 学 习 正 是 通过 一 系列 不 断 的 试 错 ， 逐 步 尝试 应 对 环 
境 各 种 状态 时 应 该 采取 的 措施 并 收集 相应 的 奖励 ， 最 终 获 得 


成 功 。 


2.1 多 目标 航 迹 复原 问题 及 建 模 条 件 分 析 


探测 器 以 一 定 频率 控 测 若干 目标 点 的 地 理 位 置 ， 然 而 由 


哪 一 个 


于 探测 器 本 身 的 限制 ， 无 法 确定 每 次 探测 到 的 各 个 点 具体 是 
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有 标 ， 同 时 ， 会 存在 漏 报 和 虚报 的 情况 。 例 如 ， 探 测 
器 探测 到 图 3 所 示 的 信息 。 
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图 3 探测 器 在 不 同时 刻 探测 到 的 目标 地 理 位 置 示意 图 


Fig.3 The sketch map of the multi target locations at each time 


每 个 时 刻 ;探测 器 对 


探测 结果 上 区 分 各 个 目标 ， 例 如 图 3 中 的 5 个 时 刻 探 测 到 的 
并 且 在 时 刻 只 探测 到 了 4 个 目标 ， 在 时 刻 探测 到 
了 6 个 目标 ， 分 别 对 应 虚 警 和 漏 警 。 多 目标 航 迹 探测 问题 就 
进行 整合 ， 得 到 各 个 目标 的 航 迹 ， 如 图 


四 
结果 ， 


是 将 这 些 探测 的 结 


目标 的 位 置 进行 探测 ， 但 是 无 法 从 


4 所 示 。 


图 4 多 目标 航 迹 复原 结果 示意 图 


Fig.4 Sketch map of the reconstruction trajectories with multi target 


图 4 中 带 圆 圈 数 字 表 示 各 个 目标 及 其 对 应 的 航 迹 。 箭 头 
表示 各 个 目标 复原 出 航 迹 示意 ， 箭 尾 实心 圆 


表示 目标 的 起 


始 位 置 


3 


空心 圆圈 表示 目标 终止 位 置 ， 箭 体 虚线 空心 
示 目 标 在 路 径 上 被 


弹 表 


日 


器 虚 警 ， 灰 色 虚 线 


测 嚣 虚 警 点 ， 添 加 


迹 
。 


实际 场景 中 ， 一 方 面 
到 多 个 目标 在 各 个 时 间 点 上 的 地 理 位 置信 息 ， 即 探测 器 无 法 
提供 每 一 帧 数据 中 各 个 目 


圆 
圈 表 示 探 测 器 漏 警 。 多 目标 航 迹 复 


原 问 


各 
题 便 是 通过 合理 判断 目标 航 迹 总 体 的 趋势 ， 删 除 不 合理 的 探 


理 的 漏 警 点 ， 从 而 还 原 出 目标 的 真实 航 


]， 


由 于 探测 器 的 局 限 性 ， 只 能 探测 


标点 对 应 具体 是 哪 一 个 目标 。 男 


方 田 ， 


关注 的 目标 具有 


定 的 行动 规律 ， 不 是 纯粹 的 空间 随 


波动 ， 


a) 


(a) 多 个 目标 在 每 个 检测 时 


理 位 


差 时 做 微调 而 不 会 出 


机 运动 ， 即 目标 的 速度 具有 一 定 的 稳定 性 ， 不 会 出 现 过 大 的 

彤 预先 设 定好 的 航 迹 进行 移动 ， 出 现 偏 
现 急 转 等 现象 。 针 对 多 目标 航 迹 复原 问 
题 ， 在 建 模 过 程 中 主要 考虑 如 下 假设 条 件 : 


目标 一 般 会 按 


针对 探测 器 探测 条 件 的 限制 ， 主 要 有 以 下 两 个 假设 : 


信息 ， 各 目标 之 间 


| 间 点 〈 即 每 一 帧 )》 上 只 被 检测 到 地 


无 法 区 分 ; (b) 每 一 帧 中 检测 到 的 目 
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民 据 任务 完成 的 情况 评判 的 总 体 估 

E 务 所 对 应 的 分 数 ， 因 此 又 叫做 单 局 乱 
过 不 断 重 复 多 轮 次 的 完成 任务 
于 单 局 得 分 高 的 操作 ， 以 希望 得 到 最 高 的 单 局 分 数 。 


标 存在 虚 警 或 漏 警 的 情况 ， 即 帧 内 存在 噪声 点 。 
b) 针 对 目标 运行 具有 一 定 规律 性 及 合理 性 ， 主 要 考虑 以 
下 三 点 假设 : (a) 目 标 运行 速度 相对 稳定 ， 不 会 出 现 短期 内 突 
然 增 减速 的 情况 ; (b) 目 标 运行 轨迹 相对 光滑 ， 不 会 出 现 急 转 
弯 等 情况 ; (c) 目 标 运行 的 轨迹 限定 在 一 定 范围 内 的 周期 规律 
性 运动 ， 即 目标 完成 的 是 在 特定 区 域内 的 绕 行 任务 。 
实际 目标 在 运行 过 程 中 可 能 会 出 现 不 符合 上 述 假设 的 1 
况 。 一 方面 ， 某 些 目标 航速 存在 波动 ， 通 过 后 续 奖 励 函 数 各 
设计 调整 相应 航 距 稳定 项 的 正则 化 系数 可 以 适应 一 定 程 度 的 
航速 波动 ， 如 果 航 速 波动 过 大 ， 只 通过 地 理 位 置信 息 判 断 
标 航 距 的 误差 也 会 相应 较 大 ; 另 一 方面 , 由 于 探测 器 性 能 的 影 
响 ， 如 果 探 测 结果 的 每 一 帧 中 虚 警 的 噪声 点 过 多 ， 也 会 错误 
地 认为 每 一 帧 中 存在 的 噪声 点 都 是 其 他 真实 不 存在 的 目标 的 
航 迹 ， 该 项 的 性 能 也 可 以 通过 减 小 目标 个 数 项 的 正则 化 系数 
进行 控制 。 
进一步 分 析 航 速 稳定 这 一 假设 ， 实 际 情况 中 ， 目 标 航速 
确实 会 发 生变 化 ， 本 文 考虑 的 场景 中 ， 目 标 会 根据 预先 设 定 
好 的 航 迹 进行 运动 ， 不 存在 急剧 增 减速 的 情况 。 因 此 ， 这 一 
假设 对 应 目标 航速 相对 稳定 , 允许 存在 航速 变化 但 变化 不 大 。 
同时 ， 针 对 航速 尽量 保持 不 变 这 一 假设 设计 的 奖励 函数 项 ， 
可 以 使 还 原 出 的 航 迹 尽量 在 航速 上 稳定 ， 避 免 相 邻 两 帧 中 距 
离 差距 较 远 的 目标 点 被 划分 为 同一 个 目标 的 情况 。 在 此 假设 
下 设计 的 奖励 函数 ， 还 原 出 的 目标 航 迹 航速 仍然 可 变 ， 只 是 
变化 尽量 不 剧烈 ， 比 较 符合 实际 目标 的 运行 规律 ， 即 希望 还 
原 出 的 各 个 目标 的 航 迹 航 速 在 合理 范围 内 变化 ， 而 不 会 剧烈 
2.2 环境 状态 
系统 所 处 的 当前 被 探测 到 的 目标 位 置 视 作 当前 系统 的 状 
态 , 在 1 时 刻 所 处 的 状态 记 为 s， 所 有 状态 构成 的 空间 记 做 s 。 
如 图 5 所 示 ， 图 中 的 每 个 点 p(i=1,2,3,4,5) 代表 在 不 同时 刻 系 
统 所 处 在 的 空间 状态 ， 然 而 实际 接收 的 数据 由 于 误差 时 间 等 
限制 ， 并 不 知道 时 间 先 后 顺序 ， 需 要 根据 合理 的 推断 选 出 
个 合适 的 航 迹 点 序 。 
© 
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图 5 深度 强化 学 习 状 态 示意 图 
Fig.5 Sketch map ofthe states in the deep reinforcement learing 
2.3 行动 
当 系 统 处 在 环境 状态 s, 时 ， 对 :x+1 时 刻 的 行动 空间 是 由 
前 :个 时 刻 状态 决定 的 ， 即 之 前 选 过 的 状态 不 再 参与 行动 备 
选 ， 因 此 系统 在 :时 刻 的 行动 w sfsls eS,iz#12,7..,3} ， 例 如 ， 
在 图 6 中 zx=2 时 刻 ， 假 设 已 经 选 定 了 疡 一 户 作 为 前 两 个 时 刻 
的 航 迹 点 ， 即 % =P,%=p,， 则 在 w={p;,ps,p;} ， 即 接 下 来 的 
备 选 点 只 能 从 剩余 未 被 选 定 为 航 迹 点 的 探测 点 中 选取 。 
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图 6 深度 强化 学 习 行动 示意 图 
Fig.6 Sketch map of the actions in the deep reinforcement learing 
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2.4 TOC 奖励 函数 
实际 目标 在 目标 中 几乎 不 会 改变 航速 ， 而 对 目标 定位 的 
检测 点 是 在 固定 采样 率 条 件 下 探测 得 到 的 ， 因 此 可 以 认为 合 
理 的 航 迹 条 件 下 ， 相 邻 两 个 点 之 间 的 距离 应 该 相近 ， 同 时 
虑 目标 运动 过 程 中 不 一 定 沿 直线 运动 ， 当 曲线 运动 时 ， 直 连 
出 的 距离 会 比 实际 运动 的 曲线 距离 短 (平面 内 任意 连接 两 点 
的 线 中 ， 直 线段 最 短 )， 据 此 定义 在 1 时 刻 系统 状态 为 s, 的 情 
况 下 采取 行动 a 所 得 到 的 奖励 为 
reward, (a,;s, )S—d(s,,a, )— dg 
D({d(si,s)|i=1,2,...,t—1} UV{d(s,,a)) 
这 里 p(o) 表示 样本 集 方差 ，d(。.) 表示 两 点 之 间 的 直线 
距离 ， 也 简 记 为 4， 该 项 称 为 航 距 稳 定 项 。 
进一步 ， 若 考虑 目标 飞行 具有 阶段 性 规律 ， 例 如 某 一 段 
时 间 内 会 沿 着 一 定 曲线 的 航 迹 运动 ， 下 一 段 时 间 内 可 能 会 是 
另 一 个 规律 性 较 强 的 曲线 ， 此 时 奖励 可 能 不 必要 考虑 所 有 之 
前 状态 之 间距 离 的 方差 , 而 是 只 考虑 一 部 分 时 间 段 内 的 方差 ， 
从 而 定义 考虑 前 4 个 状态 情况 下 的 奖励 函数 为 


reward, (qi;s, ) Ss —d,,, 一 


D({dss, |i=t—ntb...,t—l} wd) O) 
这 里 4=142,.…,t， 且 n=t 时 对 应 为 考虑 所 有 状态 情况 下 的 


标 很 少 出 现 急 转 等 现象 ， 因 此 在 选取 行动 


策略 上 ， 如 果 选 择 了 距离 合适 ， 但 是 却 出 现 了 急 转 等 现象 的 
航 迹 时 ， 也 应 该 相应 获得 负 的 奖励 ， 采 用 曲率 对 该 奖励 进行 
刻画 ， 选 择 曲率 尽量 小 的 航 迹 ， 相 应 的 奖励 函数 增加 曲率 正 
则 项 如 下 : 

ee @) 


ds a ds a ds ns, 
该 式 是 利用 相 邻 的 三 个 采样 点 估计 目标 运行 航 迹 的 曲率 


的 估计 值 ， 可 以 证 明 当 采 样 间隔 足够 小 ， 三 个 采样 点 足够 近 
时 该 估计 值 趋 近 于 目标 运动 轨迹 的 曲率 ， 符 合 质点 运动 学 中 


质点 运动 轨迹 密切 圆 的 定义 ， 对 该 式 的 求解 和 说 明 见 附录 。 

最 后 ,考虑 目标 在 移动 时 经 常 绕 着 较 规 律 曲线 进行 移动 ， 

姑 此 曲率 的 变化 率 前 后 也 不 应 过 大 ， 对 激励 函数 还 需要 加 上 

项 历史 曲率 的 方差 作为 正则 项 , 类 似 航 距 稳 定 项 , 考虑 前 
个 状态 下 曲率 的 方差 ， 即 为 曲率 稳定 项 : 


curvstable, (a,;s,)S—D({curvili=t—n+l,.…,t—1}) (4) 
综合 以 上 各 种 结合 实际 目标 轨迹 的 特点 的 因素 ， 在 1 时 
刻 ， 系 统 处 于 状态 5, 时 ， 采 取 行 动 a 所 对 应 的 奖励 函数 为 
nr(a;s,|n)Ereward, (a,;s,)+Acurv, (a;s, )+ Vcurvstable, (a,;s, ) (5) 
这 里 考虑 状态 的 阶 数 4=42.…,t， 对 应 的 1, 黎 为 正则 项 系 
数 。 在 考虑 多 个 目标 时 ， 需 要 进一步 引入 目标 个 数 作为 新 增 
的 正则 项 对 奖励 函数 进行 修正 ， 只 需要 对 上 式 再 加 上 一 个 目 
标 个 数 项 作为 第 三 个 正则 项 即 为 本 文 提 出 的 轨迹 曲率 圆 
(TOOC) 奖 励 函 数 。 
2.5 QQ 函数 
奖励 函数 只 是 智能 体 在 采取 当前 行动 后 ， 由 环境 反馈 得 
到 的 奖励 ， 智 能 体 要 学 习 的 并 不 是 当前 一 步 环 境 反馈 奖励 最 
大 ， 而 是 要 经 过 序 贯 决 策 后 最 终结 果 最 优 ， 因 此 智能 体 的 策 
略 是 基于 特定 状态 * 下 ， 选 择 未 来 能 够 带 来 奖励 最 多 的 动作 
a ， 在 特定 状态 s 和 行动 a 下， 未 来 的 奖励 称 为 Q 函数 ， 表 
示 为 8(s,a) 。 
系统 在 1 时 刻 的 Q 函数 为 8(s,a)， 则 在 1 时 刻 智能 体 的 
任务 就 是 根据 当前 环境 的 状态 s 找 出 使 8(s,a) 最 大 的 动作 
a,， 妈 
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a, =argmax Q(s,, 
a 


的 Q 函 数 ,因此 需要 进 
迭代 过 程 如 下 : 


Qi (si,a,)= Qs, 


dm +7Ymax C@ (sa) 
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als, ) 


,a ) 十 


—Q. (50)| 


用 中 


4 表示 学 习 率 , 7 表示 衰减 因 


该 Q 函数 是 


network，DQN)B]， 输 入 数据 是 系统 的 


个 动作 的 2 值 。 同 时 ,在 深度 强化 学 
保存 具体 某 一 时 刻 的 当前 状态 、 奖 


状态 3， 输出 


励 、 


个 状态 、 状 态 是 否 结束 等 信息 ， 定 


定 大 小 的 一 段 记忆 ， 
3 ”算法 流程 


该 算法 的 整体 流程 如 图 


以 及 采取 行动 三 个 过 程 。 


(convolutional neural network，CNN) 对 环境 进行 
相应 的 奖励 函数 计算 ， 将 识别 出 的 状态 送 入 基 了 
算 的 Q 值 训练 过 的 DQN 获得 当前 状态 下 1 


值 ， 采 取 使 Q 值 最 大 的 行动 作 | 


图 7 


于 坏 境 。 


算法 流程 


Fig.7 Flowchart of the algorithm 


3.1 环境 识别 


置信 息 后 的 目标 情况 ， 需 要 考虑 到 


(6) 
然而 , 实际 问题 中 的 Q 函数 很 难 通过 明确 的 显 式 表 达 写 


出 ， 在 实际 应 用 中 未 必 针 对 每 一 个 状态 和 行为 均 有 相同 


步 通 过 和 迭代 的 方法 逐步 更 新 Q 函数 ， 


0) 


子 。 在 深度 强化 学 习 中 ， 

深度 学 习 网 络 表示 的 , 称 为 深度 Q 网 络 (deep Q 
是 对 应 每 
习 中 定义 了 一 段 记忆 体 ， 
动作 、 迁 移 到 的 下 一 
期 从 记忆 体 中 随机 选择 
于 批量 训练 Q 函数 的 深度 神经 网 络 。 


国 


7 所 示 。, 主 要 包含 环境 识别 .DQN 
首先 通过 卷 积 神 


经 网 络 


gray) 


状态 识别 和 
F 奖 励 函 数 计 
取 不 同行 动 时 的 Q 


对 于 深度 强化 学 习 的 输入 ， 本 问题 主要 是 获得 了 地 理 


位 


对 于 一 个 图 片 ， 


应 该 


~ 


备 平移 旋转 不 变 的 特性 。 即 目标 平 
无 论 如 何 选取 都 不 影响 
其 进行 识别 。 环境 识别 采 


面 的 坐标 原点 及 正 交 方向 
标的 航 迹 判别 ， 应 该 采用 
的 是 CNN,， 将 获取 到 的 目标 在 各 


CNN 对 


个 采样 时 刻 的 位 置 放 入 一 定 规 格 的 


表格 网 络 中 ， 用 网 


络 的 


数 坐 标 表示 各 个 采样 点 所 处 的 位 置 ， 
言 息 作为 CNN 的 输入 ， 
CNN 进行 i 


各 个 目标 的 航速 和 方位 人 
标 所 处 的 状态 作为 样本 标签 对 
可 以 作为 智能 体 的 视觉 模块 ， 


为 智 


信息 s 以 及 采取 一 定 行动 后 对 应 的 奖励 * 。 男 一 方面 


月 


目标 点 的 网 


格 以 


整 
及 


体 提供 


台 b 
HE 


己 


] 时 将 
| 练 ， 获 得 的 网 络 
环境 当前 


的 状 


1, 


汗 
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上 一 节 中 设计 了 该 环境 的 奖励 


E 式 ， 也 可 以 直接 


搭建 该 函数 对 应 的 神 


络 。 


CNN 通过 识别 


的 输入 是 每 一 


经 网 络 而 不 训练 根 


当前 一 帧 图 像 中 的 数据 网 点 输出 该 
帧 图 片 ， 输 出 是 检测 到 
。 与 复杂 的 目标 检测 问题 不 同 的 是 ， 


环境 生成 奖励 的 网 


项 中 


标 不 存在 复杂 的 几何 


No 


一 帧 图 片 ， 同 


让 在 


相应 网 格 是 否 
DQN 


日 


结构 ， 而 是 探测 到 


的 一 


此 只 需要 将 输入 帧 进行 网 格 划分 ， 并 输出 各 
在 目标 点 即 可 。CNN 的 输入 即 为 网 格 化 的 每 
时 具有 等 于 网 格 个 数 的 输 
目标 。 


出 ， 每 个 输出 用 表示 


环境 的 状态 包括 连接 到 当前 目标 航 迹 的 位 置信 息 


位 
状态 为 上 维 ， 


同行 动 对 


RS 
角 等 信息 ， 


万 

状 将 该 向 量 作为 
的 输入 也 是 维度。 DQN 的 目的 是 相 
不 

每 


候 


应 的 Q 函数 值 


个 多 


人 问 量 s, =[sn 
DQN 的 输入 ， 相 应 的 DQN 网 络 
民 据 环境 所 处 的 状态 给 
对 此 需要 通过 奖励 值 递归 计算 出 


7 下 了 即 系统 的 


而 到 
CE 


能 够 通过 样 


训练 DQN 


本 回放 缓存 
网 络 。DQN 网 络 
行动 对 应 的 Q 函数 值 ， 即 {Q(s,, a)la=a,%, 


集 即 为 获得 的 


标 


3.3 采取 行动 


数值 后 ， 需 要 决定 采取 哪 一 行动 来 作 
综合 考虑 多 步 奖励 


要 取 Q 值 对 应 
动 a 满足 


环境 相应 改变 后 ， 环 境 识 


航 迹 点 数 1， 


个 状态 下 对 应 各 个 行动 的 Q 函数 值 对 DQN 进行 训练 ， 并 
区 对 这 些 数 据 有 


次 访问 以 在 需要 三 


的 输出 是 在 当前 状态 下 采 


取 各 个 
a} » 这 里 的 行动 


DQN 和 


在 通过 环境 当前 的 状态 计算 出 采取 各 个 行动 对 应 


从 出 维度 相应 也 为 1 。 


的 Q 函 


于 环境 ，Q 函数 值 是 


口 


最 大 


a, =arg max O(s,,a) 
a 


\ 别 CNN 


馈 后 对 当前 一 步行 动 的 估计 ， 因 此 只 需 
的 那个 行动 作用 于 环境 即 可 。 


即 采 取 的 行 


(8) 
步 学 习 出 改变 


会 进 


后 的 环境 状态 和 相应 的 奖励 ， 如 此 循环 往复 ， 直 到 找 出 目标 


点 的 所 


| 航 迹 信息 已 ,。 


4 ”实验 分 析 


本 文 以 OpenAI Gym 为 实验 环境 ， 采 月 


快捷 地 构建 深度 强化 学 习 的 环境 ， 
进行 强化 学 习 。 为 了 说 明 本 文 提出 


分 别 将 其 在 仿真 航 迹 数据 上 实验 TOC 


学 习 结 果 的 影响 ， 同 时 给 


航 迹 复原 效果 。 


4.1 实验 设置 


有 该 环境 可 以 方便 


构建 DQN 以 对 该 环境 
的 TOC 奖励 


函数 的 效果 ， 
奖励 函数 中 各 个 项 对 


测 到 的 目标 地 理 


位 置 ， 相 


出 将 该 函数 应 


在 实际 数据 集 上 的 


在 以 OpenAI Gym 构造 环境 时 ， 环 境 状 态 即 为 探测 器 探 
应 的 行动 也 是 各 个 


立 置 ， 在 计算 区 


报 函 数 时 ， 


如 果 选 择 的 行动 已 经 是 构成 轨迹 的 


应 策略 回报 为 0，, 否则 按照 本 文 给 出 的 


经 被 划分 到 轨迹 内 上 


标点 ， 则 相 
TOC 回报 函数 结合 已 


贺 亮 ， 等 : 深度 强化 学 习 复 原 多 目标 航 迹 的 TOC 奖励 函数 


有 的 函数 


和 航速 、 
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运动 .轨迹 上 的 每 个 点 表示 目标 不 同时 刻下 的 准 
而 实际 上 ， 探 测 器 检测 到 的 目标 具有 一 定 的 损失 和 虚 漏 车 
此 处 添加 的 随机 噪声 是 均值 为 0 ， 方 差 为 5 的 高 斯 噪声 ， 同 
时 虚 警 率 漏 警 率 均 设 置 为 5% ， 如 图 9 所 示 。 


确 地 理 位 置 


局 区 
警 ， 


标 真 实 轨迹 


Real trajectories of four targets in Simulation 


加 8 仿真 出 的 


Fig. 8 


target_1 
target_ 2 


-ee 
一 一 
—- target 3 
— target 4 


20 


图 9 对 仿真 目标 真实 轨迹 加 噪 

Fig9 The noised real trajectories of four targets in Simulation 

图 9 中 的 轨迹 是 经 过 加 噪 处 理 后 的 仿真 数据 且 每 条 
轨迹 都 有 用 十 字 表 示 的 漏 警 点 ,图 中 还 有 又 号 表示 的 虚 警 点 。 
于 漏 警 点 在 实验 数据 中 并 不 存在 , 据 此 可 以 无 须 考 虑 此 点 ， 
为 了 航 迹 复 原 的 实验 完全 性 ， 首 先 把 虚 漏 警 点 考虑 在 内 ， 实 
验 结果 如 下 。 
4.2 航 距 稳定 项 


图 10 分 别 是 航 距 稳 定 项 的 正则 化 系数 取 为 3 和 20 的 还 
原 效 果 图 。 


图 10 航 距 稳定 项 对 航 迹 复原 效果 的 影响 (左右 图 分 别 为 正则 项 系 
数 为 3 和 20 时 的 航 迹 复原 效果 ) 
Fig. 10 Influence of the stability item of trajectory distance when the 


regularis 3 (the left figure)and 20 (the right figure) 
从 图 10 中 可 以 看 出 , 随 着 航 距 稳定 项 在 奖励 函数 中 的 比 
重 增加 ， 复 原 出 的 目标 航 迹 越 来 越 趋 于 每 一 个 目标 的 相 邻 两 


的 目标 点 计算 回报 函数 值 。 


TOC 回报 函数 


率 稳 定 项 及 


正则 项 系数 时 ， 殿 


标 数目 
用 于 多 目标 航 迹 挖 
数 中 的 航 距 稳定 项 


昌 问 题 的 影响 , 本 文 


也 作为 正则 项 进行 实验 。 当 调整 期 中 一 个 


中 具有 三 个 正则 项 ， 


分 别 对 应 曲率 大 小 、 


SA 


“为 了 给 出 TOC 函数 对 深 度 强 化 学 习 


的 实验 将 TOC 回报 函 


也 正则 项 系数 均 


真实 航 迹 如 必 


8 所 示 。 图 中 的 横 纵 坐标 


图 8 中 
中 目标 1 和 


有 四 
2 分 别 


个 目标 ， 


分 别 用 


取 值 为 1。 


I 种 颜色 和 形状 区 


实验 用 目标 的 
分 别 是 经 纬度 。 
XxX. 


进行 直线 运动 , 目标 


次 探测 目标 点 距离 相同 。 从 而 目标 数 在 该 项 正则 项 系数 过 大 
时 出 现 错误 。 
4.3 ”曲率 项 

图 11 分 别 是 有 无 曲率 项 , 及 随 着 曲率 项 的 正则 化 系数 增 
大 的 还 原 效果 图 。 

曲率 项 是 用 来 描述 目标 轨迹 的 曲率 的 ， 正 常 的 目标 在 运 
行 过 程 中 很 少 出 现 急 转弯 的 现象 ， 因 此 该 项 的 正则 项 系数 越 
大 表明 控制 学 习 出 来 的 航 迹 越 接 近 直 线 。 从 图 11 可 以 看 出 ， 
当 曲 率 项 增 大 过 程 中 ， 目 标 航 迹 逐 渐变 得 越 来 越 直 ， 并 且 为 


| 


3 和 4 分 别 进行 圆 
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录用 定稿 贺 亮 ， 
了 构建 直 的 航 迹 


目标 个 数 的 估计 出 现 错误 ， 右 图 中 ， 
还 原 成 直线 。 


牺牲 目标 个 数 这 一 项 作为 
见 大 部 分 


等 : 深度 强化 学 习 复 原 多 目标 航 迹 的 TOC 奖励 函数 


代价 ， 从 而 导致 


标的 轨迹 都 被 


图 11 


Fig. 11 


1 率 项 对 航 迹 复原 效果 的 影响 
(左右 图 分 别 为 正则 项 系数 为 3 和 20 时 的 航 迹 复原 效果 ) 


(the left figure) and 20 (the right figure) 


4.4 曲率 稳定 项 


Influence of the curvature item when the regularis 3 


图 12 分 别 是 有 无 曲率 稳定 项 及 随 着 曲率 稳定 项 的 正则 
化 系数 增 大 的 还 原 效果 图 。 


图 12 ”曲率 稳定 项 对 航 迹 复原 效果 的 影响 (左右 图 分 别 为 正则 项 系 
数 为 3 和 20 时 的 航 迹 复原 效果 ) 
Fig. 12 Influence of the stability item of trajectory curvature when the 


regularis 3 (the left figure) and 20 (the right figure). 


率 稳定 项 描述 目标 在 运动 过 程 中 做 圆周 类 运动 时 的 现 


标 虽然 每 一 处 都 存在 曲率 ， 但 是 曲率 保持 


罚 周 运动 


这 对 于 具有 规律 性 ; 
。 从 实验 


即 
率 而 不 变 。 
力 


动 的 目标 具 


较 好 的 接 


运动 
吉 果 可 以 看 出 ， 随 着 该 项 系数 的 增加 ， 目 标 


和 
轨迹 逐渐 被 判断 为 圆周 运动 ， 因 为 圆周 的 昌 


的 ， 从 而 该 项 为 零 ， 此 时 会 牺牲 目标 个 数 作为 代价 。 
4. 


目标 个 数 项 


率 是 稳定 不 变 


图 13 分 别 是 有 无 
化 系数 增 大 的 还 原 效 果 图 。 


/ 


标 个 数 项 , 及 随 着 目标 个 数 项 的 正则 
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本 文 提 出 的 TOC 奖励 函数 进行 测试 ， 综 合 考虑 TOC 奖励 函 
数 中 的 航 距 稳定 、 曲 率 、 曲 率 稳 定 和 目标 个 数 项 的 影响 ， 采 
用 深度 强化 学 习 的 实验 结果 如 图 14 所 示 。 

-0— target 1 


-vy- target 2 
16 -1 —O- target 3 


14 1 


12 ] 


10] 


17.5 20.0 
图 14 实际 数据 集 上 TOC 奖励 函数 复原 航 迹 结 
Fig. 14 Result of the trajectory reconstruction on the real dataset by 
the TOC reward function. 

从 图 14 中 可 以 看 出 , 还 原 出 的 目标 数 为 3 个 , 与 实际 目 
标 数 相符 , 同时 采用 TOC 奖励 函数 后 还 原 出 的 目标 航 迹 在 航 
距 上 分 布 稳定 ， 否 则 会 出 现 各 个 航 迹 点 之 间 乱 连 ， 同 一 时 刻 
的 多 个 噪声 点 相互 连接 的 情况 。 航 迹 的 曲率 尽量 小 ， 总 体 
上 没有 出 现 目标 的 轨迹 特别 尖锐 的 急 转 现象 ,曲率 相对 稳定 ， 


T T T T 
2.5 5.0 75 10.0 12.5 15.0 22.5 


除了 左下 角 的 曲率 较 大 外 ， 其 他 处 几乎 相同 。 如 果 采 用 聚 类 
的 方法 ， 由 于 聚 类 的 信息 此 时 只 有 距离 信息 ， 对 于 空间 中 的 


聚 类 结果 ， 首 先 需要 提前 设置 聚 类 个 数 为 3， 即 需要 已 知 多 
目标 航 迹 问题 中 的 目标 个 数 ， 系 统 无 法 自行 学 习 出 。 然 后 根 
据 各 个 点 的 二 维 地 理 位 置信 息 进 行 聚 类 ， 采 用 航 迹 聚 类 算法 
P3] 的 复原 结果 如 图 15 所 示 。 

-cr- target 1 


-~VY- target 2 
16 4] -0- target 3 


A 
101 we 
二 
省 
25 50 75 100 15 150 175 200 225 
到 15 实际 数据 集 采 用 航 迹 聚 类 方法 结果 


Fig. 15 The result ofthe trajectory reconstruction on the real dataset 


by the trajectory cluster method. 


图 13 


航 迹 蒜 
该 方法 的 未 


聚 类 方法 采用 I 


间 信息 ， 


聚 类 结果 明显 


进行 聚 类 ， 


根据 空间 距离 


有 全 间 可 限 性 » 


即 主要 考虑 在 欧式 


数 为 3 和 20 时 的 航 迹 复原 效果 ) 


标 个 数 项 对 航 迹 复原 效果 的 影响 (左右 图 分 别 为 正 


则 项 系 


Fig. 13 Influence ofthe stability item of the target number when the 


regularis 3 (the left figure)and 20 (the right figure). 


目标 个 数 一 方 面 可 以 在 


空间 内 一 定 距 离 内 的 目标 航 迹 点 形成 轨迹 ,而 基于 TOC 奖励 
函数 的 深度 强化 学 习 网 络 能 够 综合 考虑 航 距 、 曲 率 、 目 标 个 
数 等 多 个 指标 综合 给 出 轨迹 复原 结果 。 

另 一 方面 ， 与 已 有 的 航 迹 聚 类 算法 对 比 在 目标 个 数 判定 


知情 的 情况 下 给 出 ， 也 可 以 由 深 


度 强 化 学 习 自 动 学 习 , 然而 该 项 的 正则 化 系数 需要 仔细 设置 。 


如 果 1 知 
出 ， 随 着 该 项 系数 


的 增加 ， 


标 个 数 ， 则 尽量 不 试用 该 项 。 从 实验 结果 可 以 看 
标的 航 迹 被 区 域 连城 一 个 目标 


的 航 迹 ， 即 期 户 
起 构造 一 条 航 迹 。 
4.6 与 已 有 航 迹 聚 类 算法 对 比分 析 
本 节 以 实际 获取 的 目标 地 理 


标 个 数 尽量 


少 。 此 时 会 将 所 


了 目标 


位 置 数据 集 为 实验 对 


混在 


象 ， 对 


方面 本 文 提出 的 TOC 奖励 函数 方法 的 性 能 .通过 航 迹 聚 类 算 
法 自动 选 定 目标 个 数 ， 可 以 通过 分 别 计算 不 同 目标 个 数 情况 
下 聚 类 结果 选取 ,如 图 16 所 示 。 从 图 中 可 以 看 出 ， 随 着 目标 
个 数 的 增 大 ， 每 个 目标 点 被 聚 类 为 更 多 类 别 ， 从 而 每 个 类 别 
案 类 误差 减 小 ， 一 般 情 况 下 可 以 选 定 拐点 作为 聚 类 理想 

类 别 数 ， 因 此 该 算法 给 出 的 目标 个 数 为 2 个 。 而 本 文 提 出 
‘TOC 奖励 函数 下 采用 深度 强化 学 习 进 行 目标 复原 能 够 准 
确 还 原 出 与 实际 相符 的 3 个 目标 点 数 。 


clustering error 
交 
S 


1 2 3 1 5 6 7 8 9 10 
num of targets 


图 16” 航 迹 聚 类 算法 中 目标 个 数 与 聚 类 误差 之 间 的 关系 图 


Fig. 16 Relationship between the number of targets and the clustering 


errors in the trajectory clustering algorithm. 


5 ”结束 语 


实际 应 用 问题 中 ， 


检测 器 经 常 只 能 检测 到 目标 的 地 理 位 
置 ， 而 需要 区 分 目标 并 将 各 个 地 理 位 置 勾画 成 目标 在 这 段 时 
间 内 的 航 迹 。 本 文 根 据 目标 航 迹 的 物理 意义 构建 数学 模型 ， 
并 提出 了 TOC 奖励 函数 , 同时 给 出 该 函数 的 数学 证 明 。 经 过 
在 仿真 数据 上 对 TOC 奖励 函数 的 各 个 项 目 进行 学 习 效 果 对 
比 , 并 在 真实 数据 上 进行 实验 后 , 证 明了 TOC 奖励 函数 在 衡 
量 航 距 稳 定 、 曲 率 、 曲 率 稳 定 及 目标 数 方面 具有 有 效 性 。 实 
验 表 明 , 通过 调整 TOC 奖励 函数 中 航 距 稳 定 项 系数 、 曲 率 项 
系数 、 率 稳 定 项 系数 及 目标 数 项 系数 ， 能 够 有 效 
强化 学 习 的 效果 ， 复 原 出 符合 目标 实际 的 航 迹 。 钊 
决 的 问题 有 : a)TOC 函数 在 指导 深度 强化 学 习 航 迹 复 原 时 ， 
还 存在 训练 不 稳定 的 问题 ,有 时 不 能 较 好 地 收敛 到 理想 ; 
b) 进 一 步 需要 考虑 更 多 实际 目标 航 迹 的 物理 信息 ， 增 加 TOC 
函数 的 正则 项 ， 以 从 多 种 合理 复原 结果 中 找 出 最 符合 实际 情 
况 的 目标 航 迹 。 由 于 探测 器 条 件 的 限制 ， 文 中 考虑 的 场景 主 
要 针对 在 仅 已 知 地 理 位 置信 息 的 情况 下 引入 其 他 先 验 信息 ， 
如 航速 航 迹 等 特征 信息 , 进行 航 距 复原 。 提 出 的 TOC 奖励 函 
数 主要 针对 空间 地 理 位 置 这 一 物理 信息 。 在 实际 问题 中 ， 如 
果 能 够 综合 考虑 更 多 物理 信息 ， 复 原 航 迹 将 更 加 准确 合理 。 


[= 
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目前 可 以 考虑 更 多 的 物理 信息 包括 : a) 航 向 ， 这 一 信息 需要 
依赖 探测 手段 获取 ， 实 际 中 有 较 多 探测 手段 可 以 获得 这 一 信 
息 ， 因 此 可 以 综合 考虑 航向 信息 并 设计 航向 参数 正则 项 加 入 
到 TOC 奖励 函数 中 ; b) 目 标 类 型 ， 这 一 信息 需要 其 他 探测 手 
段 获 得 ， 若 已 知 目标 类 型 ， 则 可 以 进一步 区 分 同一 帧 内 的 
标 ， 从 而 合理 关联 已 知 类 型 目标 的 航 迹 ， 提 高 目标 航 迹 复原 
准确 性 。 实 际 问题 中 在 获得 目标 类 型 这 一 类 能 够 准确 区 分 目 
标的 物理 信息 后 ， 可 以 通过 该 信息 提前 区 分 出 能 够 识别 出 的 
目标 ， 然 后 利用 本 文 提 出 的 方法 处 理 剩余 不 能 区 分 目标 ， 从 
而 进一步 得 到 较 好 的 航 迹 复原 效果 。 


参考 文献 : 


[1] Sutton R S, Barto A G. Reinforcement learning: an introduction [J]. 
IEEE Trans on Neural Networks, 1998, 9(5): 1054. 


呈 


HH 


[2] Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with deep 
reinforcement learning [EB/OL]. (2013-01-01). https://www.cs.toronto. 
edu/~vmnih/docs/dqn.pdf. 

[3] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through 
deep reinforcement learning [J]. Nature, 2015, S18 (7540): $29-533. 

[4] Duan Yan, Chen Xi, Houthooft R, et al. Benchmarking deep 
reinforcement control [Cl]//Proc of 


learning for continuous 


乍 期 刊 


Chil aXiv 合 { 


度 强化 学 习 复 原 多 目标 航 迹 的 TOC 奖励 函数 第 37 卷 第 6 期 


International Conference on International Conference on Machine 
Learning. 2016: 1329-1338. 

[5] Kai A, Deisenroth M P, Brundage M, et al. A Brief Survey of Deep 
Reinforcement Learning [J]. IEEE Signal Processing Magazine,2017, 8 
(6). 

[6] Strehl A L, Li L, Wiewiora E, et al. PAC model-free reinforcement 
learning [Cl]//Proc of International Conference on Machine Learning. 
New York:ACM Press, 2006: 881-888. 

[7] Lecun Y, Bengio Y, Hinton G. Deep learning [J]. Nature, 2015, 521 
(7553): 436. 

[8] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks 
[C]/Proc of International Conference on Artificial Intelligence and 
Statistics. 2011: 315-323. 

[9] Li Yuxi. Deep reinforcement learning: an overview [EB/OL].2017. 
https://arxiv.org/abs/1701.07274 

[10] Lampe T, Riedmiller M. Approximate model-assisted Neural Fitted 
Q-Iteration [Cl]//Proc of International Joint Conference on Neural 
Networks. Piscataway,NJ:IEEE Press, 2014. 

[11] Schulman J, Levine S$, Moritz P, et al. Trust region policy optimization 
[J]. Computer Science, 2015: 1889-1897. 

[12] Hasselt H V, Guez A, Silver D. Deep reinforcement learning with 
double Q-learning [EB/OL]. 2015. https://arxiv.org/pdf/1509.06461.pdf 

[13] Mnih V, Badia A P, Mirza M, et al. Asynchronous methods for deep 
reinforcement learning [Cl]// Proc of the 33rd International Conference 
on Machine Learning. 2016: 359-365. 

[14] Schaul T, Quan J, Antonoglou I, et al. Prioritized experience replay 
[EB/OL]. 2015. https://arxiv.org/abs/1511.05952. 

[15] Babaeizadeh M, Frosio I, Tyree S, et al. Reinforcement learning 
through asynchronous advantage actor-critic on a GPU [EB/OL]. 
https://openreview.net/pdf?id=rl1 VGvBcexl. 

[16] Nair A, Srinivasan P, Blackwell S$, et al. Massively PArallel methods for 
deep reinforcement learning [EB/OL]. 2015. https://arxiv.org/pdf/ 
1507.04296.pdf. 

[17] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with 
deep neural networks and tree search [J]. Nature, 2016, 529(7587): 
484-489. 

[18] Pilcer L S,Hoorelbeke A,Andigne A D. Playing flappy bird with deep 
reinforcement learning [C] , IEEE Trans on Neural Networks, 2015, 16 
(1): 285-286. 

[19] Qi Hang, Gong Jiang, Xu Lunbo. 3D flappy bird with reinforcement 
learning, 2016. 

[20] Sallab A, Abdou M, Perot E, et al. Deep reinforcement learning 
framework for autonomous driving [J]. Electronic Imaging, 2017, 2017 
(19): 70-76. 

[21] Brockman G, Cheung V, Pettersson L, et al. OpenAI Gym [EB/OL]. 
https://gym.openai.com/. 

[22] 王 增 福 , 潘 泉 ， 郎 林 ，, 等 . 基于 减法 聚 类 的 动态 航 迹 
系统 仿真 学 报 ,2009,21(16): 
Quan,Lang Lin. Dynamic track cluster algorithm based on subtractive 
clustering [J]. Journal of System Simulation, 2009, 21(16): 5240-5243, 
5246.) 

[23] 陈 勇 . 一 种 目标 航 迹 数据 聚 类 挖 据 分 析 方法 [J]. 无 线 电 工程 
2015,45(3): 22-24. (Chen Yong. A data mining method for clustering 
target tracks [J] , Radio 0 2015,45(3): 22-24. ) 

[24] 行 艳 妮 , 钱 育 蓉 ， 南 方 哲 ， 等 .Spark 环境 下 K-means 初始 中 心 点 优 
化 研究 综述 四 计 - 机 应 用 研究 ，2020 ， 37(3) 


聚 类 算法 [J]. 
$5240-5243,5246.(Wang Zengfu,Pan 


201905.00021v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


录用 定稿 贺 ” 亮 ,等 : 深度 强化 学 习 复原 多 目标 航 迹 的 TOC 奖励 函数 第 37 卷 第 6 期 
http://www.arocmag.com/article/02-2020-03-001.html (Xing Yanni, 验证 : 
Qian Yurong, Nan Fangzhe, et al. Survey of optimization on K-means 1 abc 1 ep my 
过 人 “| a 
algorithm in Spark [J]. Application Research of Computers, 2020, 37(3). Sc 2 C= 4R 4 Mae (C3) 
http://www. arocmag. com/article/02-2020-03-001. html. . ) jbe 1 (©? 让 | 1 pe 三 二 志 天 
202 
时 TOC 座 稳 十 i a 2 
附录 。TOC 奖励 函数 辆 率 生 项 推 写 由 此 结论 可 以 写 出 外 接 贺 半径 的 类 似 结论 
对 于 一 条 光滑 曲线 ， 其 曲率 的 定义 为 1 lap (b+e a) 
sl R abc 
ds 上 aa 2c2 一 (a2 +c2 一 四 _ ap —(a+b -ce) 
这 里 的 ds 为 曲线 上 固定 点 的 弧 长 微 元 , 即 弧 微分 ，dy 为 abc abc 
切 向 角 微 元 。 当 曲线 以 笛 卡 尔 坐 标 表示 为 y=y(*) 的 形式 时 ， 将 a=d(s,4),b=d(sw4),c=d(ss) 代 入 即 得 到 曲率 半径 
曲率 表示 为 下 的 奖励 函数 的 结论 。 下 面 ， 推 导 在 对 曲线 采样 情况 下 ， 外 
接 贺 半径 可 以 近似 等 价 于 曲率 半径 。 
下 = dg|_ |darctan y' y" 
ds |M+y2dr ry2 =AB+[f (t+At)-f (OT 
=(An +Abp) +[f (t+At)-— GAN 让 
时 由 :dy A 类 2 
i C=AR+[f (An)- f(D)], 
而 在 本 文 的 问题 中 ， 只 能 获得 曲线 上 的 相隔 较 远 的 若干 A 
点 ， 可 以 采用 曲线 上 点 物 威 的 外 接 圆 半径 倒数 代替 曲率 ， Dh SAR MA (An + Al) 
下 面 先 给 出 给 定 三 点 后 外 接 圆 半径 的 求法 ， 再 对 其 极限 与 hac (a +c2—b2) | 上 cz -by 
率 半径 之 间 的 关系 进行 盖 明 。 abc arp?c? : 
如 图 17 所 示 , 对 于 给 定 的 三 个 点 , 假设 4 点 是 已 采取 的 分 母 
策 竹 9 ， B 点 是 当前 系 统 所 处 的 } 大 态 Sr C 点 是 采取 的 行动 i qb?c? =(1+ (7) 
a ， 则 相应 的 外 接 圆 半径 满足 正弦 定理 Me APRA (An tA) | 
BC _IAC| _ HB pap, 分 于 
sinA sinB sinC 4a2c2 —(a? +c? -bp2) 
lim 一 一 一 一 一 一 一 一 
简 记 为 An ARAL (At +At,) 
0D 对 如 =(A4+An)》+[f (t+An)-f 了 (1-Ai)T 中 第 二 项 进行 处 理 
sinA sinB sinC 
从 而 f(t+Ab)—f(t-At)= f(t-At+Att+At,)— 
a=DsinA f(t-At+Ab)+f (tA +Ab)- f(t-At)= 
b=DsinB 3 AG A 
c=Dsin(A+B) 2 Ah 
c=Dsin(4+B)=Dsin4cosB+Dcos4sinP， f(t—-An+Ab)— f(t—At)= 
站 et 十 AN 区 +AD) 
C2 +b cos’ A—2bccosA=a?cos’B, 4 
(Cc? +b?cos? A 一 02 cos? BY =4pb?c? cos2 4， -| 
Ai 
An 
0 乞 ) 
A (Of (=A) 
1_ 有 GE A 
站 4p2c2 LA AU-An+Ap)-AU-An) 
1 ape (ce +b a) 全 
D 4a?b?c? 在 At,Ab 一 0 时 
1 [ee ay f(t+Ab)-— ft-At) FAA +f(1) (At +At,), 
R abc ” 此 时 
b?=(At +At) +[f (t+At)- f(t-An)] = 
(+f2(7))(At +Ab) + f° (APAB + 
如 2f (7) F(t)AtAt, (At + AP)， 
7 入 4a2c2 (a te -hb) = f°2(7)ARPAB (At +Ab) + 
a 站 o(Ar, WB,(An +An)) 
~ 
\ 从 而 
~ 4d2c2 一 (a2 +c2 pb) = 2(1) 
图 17 ”曲线 微分 示意 图 APAB (At + At) 


Fig. 17 Sketch map the curve differential. 即 
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jn 
AABC R 
另 一 方面 ， 根 据 曲 率 的 定义 
Kl, 
ds 


其 倒数 是 曲线 上 该 点 密切 圆 的 半径 长 ， 
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其 中 的 微 元 y 在 
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极限 状态 下 
db 2ds 
机 dsinB| 2R 2R 1 
ds ds ds R 


该 结论 与 质点 运动 学 中 ， 质 点 运动 轨迹 上 的 密切 圆 是 外 
的 极限 之 定义 一 致 。 


3 
@ 


接 


| 澡 


